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(54) Bezeichnung: VERFAHREN UND SYSTEM ZUR PERSONENERKENNUNG MIT MODELLBASIERTER GESICHTSFINDUNG 

(57) Abstract 

The invention relates to methods and a system for face detection in a 
binarized image by comparing the point groups of the binarized image with the 
point groups of a face pattern, wherein the point groups of the binarized image 
and the face pattern are compared between the points of the point groups on the 
basis of Hausdorff distance and the points in the binarized image are recognized 
when a measure derived from the Hausdorff distance is lower than a threshold 
value. 

(57) Zusammenfassung 

Die Erfindung betrifft ein Verfahren und ein System zur Gesichtsfind- 
ung in einem binarisierten Bild durch Vergleichen der Punktegruppe des bina- 
risierten Bildes mit der Punktegruppe eines Gesichtsmodells, bei dem die Punk- 
tegruppen des binarisierten Bildes und des Gesichtsmodells anhand des Haus- 
dorff-Abstandes zwischen den Punkten der Punktegruppen verglichen werden 

und ein Gesicht in dem binarisierten Bild erkannt wird, wenn ein aus dem Hausdorff-Abstand abgeleitetes MaB einen Grenzwert unter- 
schreitet. 
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Verfahren und System zur Personenerkennung mit model Ibasierter 

Gesichtsf indung 



Die Erfindung betrifft ein Verfahren und ein System zur Personen- 
erkennung mit modellbasierter Gesichtsf indung . 

Es gibt Verfahren und Systeme zur biometrischen Personenerkennung, 
die sich auf eine Kombination aus Gesichtserkennung, Spracherken- 
nung und Lippenbewegungserkennung stutzen. Der kritische Teil da- 
bei ist die Gesichtsf indung . Die Erfindung betrifft ein Verfahren 
und ein System zur Lokalisierung des Gesichts einer Person in be- 
liebigen Kamerabildern innerhalb eines solchen Systems zur biome- 
trischen Personenerkennung. 

Das grundlegende Element bei der Gesichtserkennung ist die Ge- 
sichtsf indung, d.h. die exakte Lokalisierung des Bildausschnittes, 
der dem menschlichen Gesicht entspricht. Im Stand der Technik ver- 
einfachen einige Losungsvorschlage diese Problematic indem sie 
einen einheitlichen Hintergrund fordern, vor dem dann das Gesicht 
gefunden werden kann. Auch durch Hinzunahme der Bewegtbildinf or- 
mationen kann ein Gesicht erkannt werden, wobei hier unterstellt 
wird, da£ nur der Bereich des Bildes, der sich im Laufe einer 
Bildfolge andert , das Gesicht enthalt . 
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Solche einfachen Ansatze genugen den heutigen Anforderungen an die 
Gesichtsf indung und -erkennung nicht mehr. Die Personenerkennung 
wird heute beispielsweise durch PC-Desktopkameras und andere mo- 
bile Kameras unterstutzt, so da£ die Gesichtsf indung auch dann 
robust funktionieren mu£, wenn ein beliebiger Hintergrund oder 
sogar ein bewegtes Hintergrundbild vorliegt. 

Die erfolgreichsten der heute bekannten Ansatze. auf diesem Gebiet 
benutzen neuronale Netze. Diese Netze werden mit einer gro£en An- 
zahl von Gesichtsbeispielen trainiert, wobei bei dem Training als 
Gegenklasse eine noch grofcere Anzahl von "Nicht-Gesichtsbildern" 
verwendet wird, damit das neuronale Netz schliefclich zwischen Ge- 
sicht und Hintergrund unterscheiden kann. Ein Nachteil dieser Me- 
thode ist neben der langen Rechenzeit die starke Abhangigkeit von 
Varianzen, wie Skalierung, Rotation und Verzerrung. 

Die Erf indung hat daher zur Aufgabe, ein neues System und Verfah- 
ren zur Gesichtsf indung anzugeben, das robust ist und eine Ge- 
sichtsf indung in Echtzeit zu leisten vermag. 

Zur Losung dieser Aufgabe schlagt die Erfindung ein Verfahren mit 
den Merkmalen von Anspruch 1 und ein System mit den Merkmalen von 
Anspruch 8 vor. 

Das erf indungsgemaSe Verfahren und System sind modellbasiert . Das 
heifct, es wird ein binares Bild eines menschliches Gesichtes, oder 
eine sogenannte "Strichzeichnung" in einem entsprechenden Gesamt- 
bild gesucht. Aus einem Originalbild wird also zunachst ein bina- 
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risiertes Bild, z.B. mittels Kantenextraktion, erzeugt, und dieses 
binarisierte Bild wird mit einem binaren Gesichtsmodell vergli- 
chen, urn das Bild des menschlichen Gesichtes in dem entsprechend 
binarisierten Gesamtbild zu suchen und zu finden. Es wird also 
nicht, wie bei den bisherigen Ansatzen des Standes der Technik, 
der Intensitatswert der einzelnen Kamerapixel verglichen oder nach 
Pixelveranderungen gesucht, sondern die Erfindung stutzt sich auf 
eine Modellstruktur nach Art einer Strichzeitung, die z.B. in Form 
einer Bitabbildung vorliegen kann. 

Das Modell des Gesichtes oder die "Strichzeichnung" , wird mit dem 
binarisierten Bild mit Hilfe einer modif izierten Version des sog. 
Hausdorf f-Abstandes in zahlreichen Skalierungs- , Rotations- und 
Verzerrungsvarianten des Bildes verglichen. Die Anwendung des 
Hausdorf f-Abstandes auf die Gesichts erkennung wurde z.B. von B. 
Takacs und H. Wechsler in "Face Recognition Using Binary Image 
Metrics 11 , 2nd International Conference on Automatic Face and Ge- 
sture Recognition, IEFF Proceedings, April 1998, beschrieben. Auf 
diese Verof f entlichung und die dortige Erlauterung des Hausdorf f- 
Abstandes wird ausdrucklich Bezug genommen. 

Die genannte Verof f entlichung beschreibt die Anwendung des Haus- 
dorf f-Abstandes zum Zwecke der Gesichtserkennung. Ausdrucklich 
wird darauf hingewiesen, dafi die Gesichtsf indung mit einem ganz- 
lich anderen Verfahren erreicht wird. Die Verwendung des Haus- 
dorf f-Abstandes zur Gesichtsf indung wurde im Stand der Technik 
nicht in Erwagung gezogen, u.a. weil dieser Algorithmus sehr viel 
Rechenzeit in Anspruch nimmt . 

Dabei sollte man sich die grunds^tzlichen Unterschiede in der Pro- 
blematik der Gesichtsf indung und der Gesichtserkennung ins Ge- 
dachtnis rufen: Wenn das Gesicht in einem, insbesondere bewegten 
Bild einmal gefunden ist, kann dieses Gesichtsbild zur Erkennung 
bzw. Identif ikat ion mit nahezu beliebigen Methoden mit einer Samm- 
lung von Gesichtern aus einer Datenbank verglichen werden. Ist das 
fragliche Gesicht in der Datenbank enthalten, sind die Trefferra- 
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ten im allgemeinen ublicherweise sehr hoch, bei etwa 99%. Das 
Schwierige bei der Personenerkennung ist jedoch der vorausgeschal- 
tete Schritt, in einem beliebigen Bild zunachst das Gesicht zu 
f inden und perf ekt "auszuschneiden" . Was bei der wortsinngemafien 
Gegenuberstellung Gesichtserkennung/Gesichts- f indung also als ge- 
ringfugiger Unterschied erscheinen mag, ist im Ergebnis fur die 
Gesichts- und somit Personenerkennung entscheidend fur die Gute 
des Ergebnisses. 

Der Bildvergleich mithilfe des Hausdorf f -Abstandes basiert auf 
folgenden Grundlagen: 

Aus dem binarisierten Bild und dem Gesicht smodell werden zwei 
Punktegruppen gebildet, 

A = {ai,...,Om} 

und 

der Hausdorf f-Abstand ist dann definiert durch 

H (A, B) = max(h(A,B) ,h(B, A) ) 

wobei 



==maxmiu||a-&||. 



Das erf indungsgemafie System und Verfahren sind unempf indlich ge- 
genuber den haufigsten Storeinwirkungen, wie eine Drehung, unter- 
schiedliche Skalierung oder Verzerrung des Bildes, weil diese bei 
dem Vergleich der Punktegruppen leicht berucksichtigt werden kon- 
nen. Auch ist fur den Einsatz des erf indungsgemafcen Verfahrens 
kein langer Einlernvorgang notig, anders als bei den neuronalen 
Netzen. Im Gegensatz zu den Ansatzen mit neuronalen Netzen mussen 
auch keine "Nicht-Gesichtsbilder " vorgegeben, gelernt oder auf 
andere Weise berucksichtigt werden. Das System erkennt ein Ge- 
sicht, wie der Mensch, aufgrund der Eigenschaf ten des Gesichtes 
selbst, nicht aufgrund der Eigenschaf ten des Hintergrundes, die 
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somit nicht berucksicht igt werden mussen. Durch eine geeignete 
Ausbildung des Modells, der "Strichzeichnung" , konnen gesuchte 
Besonderheiten (z. B. Brillentrager) schnell in dem Modell beruck- 
sichtigt werden. 

Das erf indungsgemafte System und Verfahren konnen in der Zukunft in 
biometrischen Identif ikationssystemen zur automatischen biometri- 
schen Zugangskontrolle verwendet werden, bei denen haufig die Ge- 
sichtserkennung , Spracherkennung , Lippenbewegungserkennung , Ret i - 
naabtastung, etc. kombiniert werden. Mit Hilfe der Erfindung ist 
es moglich, fur die Gesichtserkennung den exakten Gesichtsaus- 
schnitt zu finden, die exakte Augenposition fur eine Retinaabta- 
stung zu lokalisieren, die exakte Mundposition zur Berechnung der 
Lippenbewegungen zu lokalisieren und dergleichen. 

Das erf indungsgemaSe System und Verfahren konnen jedoch noch sehr 
viel universeller eingesetzt werden, indem z. B. durch Vorgabe 
entsprechender binarer Modelle nur Menschen mit bestimmten Ge- 
sichtsziigen erkannt werden, urn nach solchen Merkmalen wie Mimik, 
Rasse oder Geschlecht zu unterscheiden. Das erf indungsgemaSe Ver- 
fahren und System sind nicht einmal auf die Gesichtsf indung be- 
schrankt, weil das Modell, nach dem gesucht wird, auch eine Hand 
oder einen anderen oder mehrere Teile des menschlichen Korpers 
oder einer Sache umfassen k6nnte. 

In ihren bevorzugten Ausf uhrungsf ormen sieht die Erfindung fur die 
Gesichtsf indung die Anwendung eines modif izierten Hausdorf f -Ab- 
standes vor, urn den Rechenauf wand zu minimieren und so ein Ergeb- 
nis innerhalb einer vertretbaren Rechenzeit zu erhalten. Mit der 
derzeitigen Ausf uhrungsf orm des modif izierten Hausdorf f-Abstandes 
zur Gesichtsf indung kann etwa ein Gesichtsbild pro Sekunde detek- 
tiert werden. 

Zus&tzlich sieht die Erfindung eine neuartige Vorauswahl des Bil- 
des durch eine spezielle Ausnutzung der Voronoioberf lache vor, die 
auch zur Beschleunigung des Verfahrens beitragt . 
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Das erf indungsgemafce System und Verfahren konnen sowohl als Soft- 
ware als auch als Hardwaremodule realisiert werden, wobei die mo- 
difizierten Algorithmeri entweder programmiert Oder in einer eige- 
nen Hardware realisiert und somit wenigstens in der Hardwarelosung 
echtzeitf ahig sind. 

Die Erfindung ist im folgenden mit weiteren Einzelheiten in bezug 
auf die Zeichnungen naher erlautert. In den Figuren zeigen: 

Figur 1 ein Originalbild, das mit einer digitalen Kamera 

aufgenommen wurde; 
Figur 2 eine binarisierte Version des Originalbildes der 

Figur 1; 

Figur 3 ein binares Gesichtsmodell in Form einer Strich- 

zeichnung; und 

Figur 4 die mit Hilfe des Gesichtsmodelles der Figur 3 

in dem binarisierten Bild der Figur 2 gefundene 
Position des Gesichtsmodells . 

Figur 1 zeigt das Originalbild einer Person mit Gesicht, Schulter- 
partie und Hintergrund, das mittels Kant enextrakt ion in das in 
Figur 2 dargestellte binarisierte Bild umgewandelt wird. Hierzu 
werden die Kanten am Hell-Dunkel-Ubergang in dem Originalbild dazu 
verwendet, eine Art Strichzeichnung des binarisierten Bildes gema& 
Figur 2 herzustellen. Gesucht wird nach dem zweidimensionalen Ge- 
sichtsmodell der Figur 3 mit Hilfe des Hausdorf f -Abstandes unter 
den unten naher erorterten Bedingungen. 

Der allgemeine Hausdorf f-Abstand bietet ein Mittel zur Bestimmung 
der Ahnlichkeit einer Punktgruppe zu einer anderen. durch Untersu- 
chung des Anteils der Punkte in der einen Gruppe, die in der Nahe 
von Punkten in der anderen Gruppe, oder umgekehrt, .liegen. Es gibt 
zwei Parameter, urn zu entscheiden, ob die zwei Punktegruppen ein- 
ander ahneln oder nicht : (i) der maximale Abstand, den die Punkte 
voneinander entfernt sein konnen und bei dem sie gleichwohl noch 
als nah beieinander liegend betrachtet werden, und (ii) welcher 
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Anteil der Punkte in einer Gruppe maximal diesen Abstand von den 
Punkten in der anderen Gruppe entfernt ist . 

Die Gesichtsf indung mit Hilfe des Hausdorf f-AbstandsmaSes unter- 
scheidet sich von anderen Techniken, wie der binaren Korrelation, 
weil es keine Paarung der Punkte in den beiden Gruppen gibt, die 
verglichen werden. Eine Erlauterung der mathematischen Grundlagen 
des Hausdorf f-Abstandes findet man im Internet unter der Adresse 
http : //www. cs . Cornell . edu/ Vision/hausdorf f /hausmatch. html . In 
diesem Dokument sind die Grundlagen des Hausdorf f-Abstandes erlau- 
tert, auf die Bezug genommen wird. 

Die zweidimensionale Bildabbildung der Figur 3 dient also als ein 
Gesichtsmodell, das in dem binarisierten Bild der Figur 2 lokali- 
siert werden soli, wobei geeignete zweidimensionale Trans format io- 
nen und Skalierungen vorgenommen werden konnen. 

Figur 4 zeigt die beste Ubereinstimmung des Modells der Figur 3 
mit dem binarisierten Bild der Figur 2 und somit die gefundene 
Position des Modells in dem binaren Bild in dem Sinne, da£ in Fi- 
gur 4 der gro&te Anteil der binarisierten Kantenpunkte der Figur 2 
in der Nahe der Bildpunkte der Figur 3 liegen. Bei Verwendung des 
Hausdorf f-Abstandes findet man auch dann eine Ubereinstimmung zwi- 
schen dem Gesichtsmodell und dem binarisiertem Bild, wenn die ent- 
sprechenden binaren Punkte nicht exakt ubereinanderliegen. 

Zur Realisierung dieses modellbasierten Gesichtsf indungsverf ahrens 
werden bei einer bevorzugten Ausfuhrungsf orm der Erfindung folgen- 
de Modif ikationen des Hausdorf f-Abstandes vorgenommen, urn eine 
Gesichtsf indung in Echtzeit zu erreichen: 

Die Erfindung verwendet einen hierarchischen Ansatz, bei dem zu- 
nachst das binarisierte Bild stark verkleinert wird, in dem ver- 
kleinerten binarisierten Bild nach einem entsprechend kleinen Ge- 
sichtsmodell gesucht wird; und wenn eine bestimmte Region als 
wahrscheinlicher Ort des gesuchten Gesichtes erkannt wird, wird 
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diese Region und ihre Umgebung vergrdSert, urn den Suchvorgang mit 
einem entsprechend groEeren Modellgesicht fortzusetzen, usw. 

Bei dieser hierarchischen Suchweise werden unterschiedliche Model - 
le verwendet; d.h. bei dem stark verkleinerten binarisierten Bild 
wird z.B, ein Modell (Figur 3 ) mit Schultern verwendet, um die 
Person zuverlassig zu erkennen. Je grower der Ma&stab des binari- 
sierten Bildes wird, desto feiner wird auch die Auflosung, und 
desto detaillierter wird das Modell fur die Gesichtsf indung, so 
daS schlieBlich ein Modell verwendet werden kann, das z.B. nur 
noch Augen, Nase und/oder Mund enthalt. 

Auch die Kantenextraktion zur Herstellung des binarisierten Bildes 
der Figur 2 kann an die jeweiligen Hierarchiestufen, in denen un- 
terschiedlich feine Auflosungen benotigt werden, angepaSt werden. 
Hierzu sieht die Erf indung die Verwendung eines adaptiven Sobel- 
Fi Iters vor. 

Innerhalb der verschiedenen Hierarchies tuf en konnen jeweils geeig- 
nete Rotationen des Bildes und/oder des Modells vorgenommen wer- 
den. 

Zusatzlich sieht die Erfindung vorzugsweise eine Vorf ilterung des 
binarisierten Bildes (Erosion, Dilatation, etc.) vor. 

Ein weiteres wichtiges Merkmal der Erfindung ist die Modifikation 
des Hausdorf f -Abstandes . Bei einer besonders bevorzugten Ausfuh- 
rungsform der Erfindung ist vorgesehen, mit einem modif izierten 
Hausdorf f-Abstand zu arbeiten, bei dem nicht nur der mittlere Ab- 
stand aller minimalen Abstande zwischen Modell und Bild als Ab- 
standsmaS verwendet wird, sondern bei dem der Mittelwert der er- 
sten x% (0<x<100) aller minimalen Abstande als Grundlage der Be- 
rechnung des Hausdorf f-MaSes dient, damit gr6Sere Abweichungen 
( "Ausreifcer" ) nicht berucksichtigt werden und das Ergebnis verfal- 
schen . 



WO 00/21021 



9 



PCT/EP99/07334 



Verfahren und System zur Personenerkennung mit 
modellbasierter Gesichtsf indung 



Patentanspruche : 

1. Verfahren zur Gesichtsf indung in einem binarisierten 
Bild durch Vergleichen der Punktegruppe des binari- 
sierten Bildes mit der Punktegruppe eines Gesichts- 
modells, bei dem die Punktegruppen des binarisierten 
Bildes und des Gesichtsmodells anhand des Hausdorff- 
Abstandes zwischen den Punkten der Punktegruppen ver- 
glichen werden und ein Gesicht in dem binarisieten 
Bild erkannt wird, wenn ein aus dem Hausdorf f -Abstand 
abgeleitetes MaS einen Grenzwert unterschreitet . 

2. Verfahren nach Anspruch 1, bei dem das binarisierte 
Bild aus dem Originalbild mittels Kantenextraktion 
abgeleitet wird. 

3. Verfahren nach Anspruch 1 oder 2, bei dem das binari- 

sierte Bild zunachst in einem kleinen Mafcstab mit 
einem entsprechend kleinen Gesicht smodell verglichen 
wird, der Bereich des binarisierten Bildes, in dem 
ein Gesicht gefunden wurde, vergrdSert und mit einem 
entsprechenden grofeeren Gesichtsmodell erneut vergli- 
chen wird und das Vergrdfcern und Vergleichen von bi- 
narisiertem Bildbereich und Gesichtsmodell ggf . wie- 
derholt wird, bis das Gesicht in dem binarisierten 
Bild mit ausreichender Genauigkeit lokalisiert wurde. 
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4. Verfahren nach Anspruch 3, bei dem je nach GroSe des 
binarisierten Bildes unterschiedliche Gesichtsmodelle 
mit unterschiedlicher Auflosung verwendet werden. 

5. Verfahren nach Anspruch 3 oder 4, bei dem je nach 
Grdfce des binarisierten Bildes die Kantenextraktion 
fur die Ableitung des binarisierten Bildes aus dem 
Originalbild mit unterschiedlicher Auflosung erf olgt . 

6. Verfahren nach einem der Anspruche 3 bis 5, bei dem 
je nach GrdSe des binarisierten Bildes unterschiedli- 
che Rotationsstuf en verwendet werden. 

7. Verfahren nach einem der vorangehenden Anspruche, bei 
dem das Hausdorf f -Ma£ auf der Grundlage des Mittel- 
wertes der kleinsten x% aller minimalen Hausdorf f- 
Abstande ermittelt wird, wobei 0<x<100. 

8. System zur Realisierung des Verfahrens nach einem der 
vorangehenden Anspruche mit einer Rechenvorrichtung 
zur Berechnung des Hausdorf f-Abstandes und des Haus- 
dorff-MaSes auf der Grundlage der Punkte des binari- 
sierten Bildes und des Gesichtsmodells . 
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